conv+lstm(memory based),slow fast架构,还有两者的结合。另外还有基于光流的架构,在已知光流的情况下,通过前向warp或者后向warp,能在时间维度上前后转移featuremap,这是基本的出发点。个人其实挺喜欢光流的,因为如果不追求end2end的话,光流可以被用在很多地方(当然,如果考虑时间的话,memory based方法产生的feature map也可以用在其他任何地方,只是不像光流那样可以从网络里面拆出来),当然对于特别追求精度的地方,e2e会更好。memory based方面的工作我个人非常推崇google的looking fast and slow。
3D landmark,自监督的方法,如何提高性能,代表性的工作有learable triangulation of human pose,最惊艳的是它的volumetric triangulation,直接将2d heatmap投影到3d heatmap,然后使用3d convnet refine heatmap,个人感觉是一个非常优的架构,但是是否还可以考虑投影part affinity呢,目前part affinity代表一个向量,投影回三维有很严重的不唯一性问题,因为从三维的一个点投影到二维,有很多可能性得到同一个向量,考虑非向量的part affinity是否可以,也是可以思考的。这里我想到的是直接在二维情况下估计一个3d的paf出来,然后重投影到volume里,也可以估2d的paf,然后重投影的时候认为paf的第三个分量为1,后面再用3d convnet refine。 重投影过程,这样的重投影也许也能用来重投影featuremap,但是volume的大小和分辨率与task直接相关,从而直接影响计算量。一个直接的改进是给多视图每个featuremap一个weightmap,也就是每个点一个权重,加权融合到一起
这是一个非常好的架构,直接把2d提升到了3d,可能被用在多视角的各个领域,包括三维重建,并且最后的结果可以投影回原视角,做自监督,缺点可能是计算量会比较大。 msra的一篇论文cross view fusion of human pose也很惊艳,使用epipolar几何来融合不同视角的2d heatmap达到互相改进的效果,个人感觉这一点不止可以用在landmark上(凡是使用了heatmap的地方都可以考虑用这种方式fuse,其实不止如此,,这个方法会把一个视图里的极限上所有的heatmap值通过一个权重矩阵w加权相加到另一个视图的极线上的点,而这个矩阵本质上是全局的,可能只和对极几何相关,它是否能被用来fuse featuremap个人感觉是非常有意思的一件事,但是这个计算量应该会很大)。
fuse只和对极几何有关 这里还推另一篇文章DAVANet: Stereo Deblurring with View Aggregation,这是双目去模糊的,主要思路是使用dispnet提取左右视差,然后将左右featuremap进行warp然后经过fusion layer,这里面有一点问题是,dispnet的监督其实和其他分支是半独立的,fusion layer里面也会考虑把这个dispmap concat起来。